PaperLuc N+2 Extreme Low-Light Image Enhancement

PaperLuc N+2 Extreme Low-Light Image Enhancement

image-20200828113828231

图像增强是个老话题了,读了两篇论文关注一哈。

也许是受到手机厂商在不断追逐具备更好视觉效果的“超级夜景”所影响,对低光照条件下图像的增强或恢复的研究受到了广泛的关注。根据You Can See Clearly Now!的这个统计,顶会上的相关论文数量也在逐年递增。读的这两篇文章都是专注于极端低光照场景,从两个思路来考虑,也提出了两类数据集。

Background

极端低光照(Extreme Low-light)的低质场景获得了图像增强领域和其上下游任务的广泛关注。在夜间、弱光条件下,由于传感器捕获的光子数量有限以及电子成像过程产生的不可避免的噪声,使得摄像机捕获的低质图像,不仅极大地考验人类的视觉感知,对潜在的自动驾驶、视频监控等领域也提出了相当大的挑战。我们首先考虑的解决方案是对摄影条件进行改善,例如扩大光圈设置、延长曝光时间或是打开闪光灯以收集更多的环境光。然而每种方法都具备一定的负面影响——扩大光圈会导致较小的景深,且难以适用于智能手机;长时间曝光会由于场景变化或相机运动而导致目标模糊;闪光灯会导致色差,且仅对近处目标有用。另一种自然的方案是使用连拍(Burst Capturing),通过将连续帧对齐并融合以提升 信噪比(Signal-to-noise,SNR)。然而,连拍在很多时候却很脆弱,在动态场景下很容易出现重影效应(Ghosting Effect)。

​ 传统的图像处理流程(Image Processing Pipeline,ISP)对成像传感器捕获的原始(RAW)数据进行处理,通过连续应用诸如白平衡、去马赛克、去噪、锐化、色彩空间转换、伽玛校正等一系列模块,最终将低质的输入处理成具备更好视觉效果的 RGB 格式图像输出。但是, 传统方法仅能处理中等弱光场景,对于极端低光照场景具有很低的泛化能力。随着深度神经网络的兴起,增强算法逐渐从物理模型驱动的架构转化为数据驱动的架构,对于真实或合成数据的需求也越发强烈。这种对数据的需求使得很多算法走向了不同的道路。一些方法致力于收集更多真实场景数据,以更优质的基准推动领域方法的性能提升。然而对真实数 据的收集非常困难,成本也十分昂贵,于是另一些方法考虑模拟真实场景噪声,以大规模的合成数据提升模型的性能,但这些模拟方法通常仅适用于特定场景,模型的泛化性能因而受限。

See in the Dark (CVPR2018)

image-20200828114938779

​ 这篇论文就是上述的第一类方法,提出了第一个真实场景的数据集,有效地对过去的方法进行了Benchmarking,推动了整个领域的发展。采集的数据集叫SID,对不同场景分别采集短曝光和长曝光图像对,用于神经网络的训练。考虑到低曝光图像包含信息已经很少,所以都是在RAW格式的源数据上进行训练。如上图所示,经过训练后的网络恢复得到的结果具备令人惊艳的视觉效果。

文章的主要贡献就是一个数据集和一个基于FCN的网络。数据采集过程很简单,作者用了两类具备不同Sensor的相机来采集若干夜间暗光场景的数据:

image-20200828115505341

在结构上,首先对比了过去的传统方法,就是下图的Traditional、L3和Burst这些,基本都是在相机ISP过程不断应用各种校准模块,然后生成RGB图片。

对原始数据进行了这么多的调整,怪不得很多摄影师选择自己对RAW文件修图……

另外,原来Dehaze在这里也用上了,看来我需要重新评估Dehaze的作用,图像恢复和增强算法虽然似乎对高层任务没什么价值,但它们具备优秀的视觉效果,能够被应用于这种整体图像增强中,也是有一定价值的。

image-20200828115537946

作者自己提出的结构是针对Bayer阵列而言的,首先做一个无损的压缩,减去黑电平再Scale一个放大率来调节亮度,之后经过Backbone再Reshape到RGB。

实验上从各种主观效果来看都挺好的。

要吐槽的是,客观结果太少了,纯比主观这可操作的空间太大了……

image-20200828120024175

Extreme Low-light Raw Denoising(CVPR2020 oral)

image-20200828120145715

这篇文章更加专注于去噪,其实就是走的合成数据集这条路线。像SR这些领域大家都是合成数据集来训练,但是训练的模型在真实世界场景中表现往往很差,这通常是因为这种合成数据集的方法和真实物理模型相差太大。这篇文章就尝试从物理模型出发,研究电子成像过程中每一步产生的噪声,对必要的噪声使用最优的概率分布进行拟合,以求最好地模拟真实世界的噪声模型。

具体噪音的分析咱也看不懂,总体来说作者最终将噪音模型表示为四个组分的和:整体系统增益和光子散粒噪声的积、读取噪声、源(RAW)噪声和量化噪声。当然有了噪声模型还不够,对于每个数据集还需要根据摄像机的Sensor对参数进行调整。

最终的结果还是很惊艳的,在用提出的噪音模型模拟生成的数据集上训练的模型,相较在真实数据集上训练的模型在作者获得的真实数据集上取得了更好的结果:

image-20200829125011775

image-20200829125039555